随着世界各地的更多用户正在与日常生活中的对话代理商进行互动,需要更好的言语理解,要求重新关注自动语音识别(ASR)和自然语言理解的研究之间的动态(NLU)。我们简要介绍了这些研究领域,并制定了他们之间的当前关系。鉴于我们在本文中进行的观察,我们认为(1)NLU应该认识到对话系统的管道上游使用的ASR模型的存在,(2)ASR应该能够从NLU中发现的错误(3)(3)需要对口语输入提供语义注释的端到端数据集,(4)ASR和NLU研究社区之间应该更强大的协作。
translated by 谷歌翻译
Dialogue models are able to generate coherent and fluent responses, but they can still be challenging to control and may produce non-engaging, unsafe results. This unpredictability diminishes user trust and can hinder the use of the models in the real world. To address this, we introduce DialGuide, a novel framework for controlling dialogue model behavior using natural language rules, or guidelines. These guidelines provide information about the context they are applicable to and what should be included in the response, allowing the models to generate responses that are more closely aligned with the developer's expectations and intent. We evaluate DialGuide on three tasks in open-domain dialogue response generation: guideline selection, response generation, and response entailment verification. Our dataset contains 10,737 positive and 15,467 negative dialogue context-response-guideline triplets across two domains - chit-chat and safety. We provide baseline models for the tasks and benchmark their performance. We also demonstrate that DialGuide is effective in the dialogue safety domain, producing safe and engaging responses that follow developer guidelines.
translated by 谷歌翻译
体现的代理需要能够在自然语言中互动理解任务描述,并提出适当的后续问题以获取必要的信息,以有效地成功完成各种用户的任务。在这项工作中,我们提出了一组对话框,用于建模此类对话框,并注释教学数据集,其中包括3,000多个位置,以任务为导向的对话(总计包含39.5k个话语),并具有对话框ACT。 Teach-da是对Dialog ACT的第一个大型数据集注释,用于具体任务完成。此外,我们在培训模型中证明了该注释的数据集在标记给定话语的对话框行为中的使用,预测给定对话框历史记录的下一个响应的对话框行为,并使用对话框行为指导代理商的非第二语言行为。特别是,我们对对话记录任务的教学执行执行的实验,该模型预测在体现任务完成环境中要执行的低级操作的顺序,证明对话框行为可以将最终任务成功提高2分,以提高最终任务成功率到没有对话行为的系统。
translated by 谷歌翻译
自2016年成立以来,Alexa奖计划使数百名大学生能够通过Socialbot Grand Challenge探索和竞争以发展对话代理商。挑战的目的是建立能够与人类在流行主题上连贯而诱人的代理人20分钟,同时达到至少4.0/5.0的平均评分。但是,由于对话代理商试图帮助用户完成日益复杂的任务,因此需要新的对话AI技术和评估平台。成立于2021年的Alexa奖Taskbot Challenge建立在Socialbot Challenge的成功基础上,通过引入交互式协助人类进行现实世界烹饪和做自己动手做的任务的要求,同时同时使用语音和视觉方式。这项挑战要求TaskBots识别和理解用户的需求,识别和集成任务和域知识,并开发新的方式,不分散用户的注意力,而不必分散他们的任务,以及其他挑战。本文概述了Taskbot挑战赛,描述了使用Cobot Toolkit提供给团队提供的基础架构支持,并总结了参与团队以克服研究挑战所采取的方法。最后,它分析了比赛第一年的竞争任务机器人的性能。
translated by 谷歌翻译
在语言处理的神经方法上的最新进展引发了人们对建立智能开放域聊天机器人的兴趣的复兴。但是,即使是最先进的神经聊天机器人也无法在对话框中每个回合产生令人满意的响应。一个实用的解决方案是为相同上下文生成多个响应候选者,然后执行响应排名/选择以确定哪个候选者是最好的。先前的响应选择中的工作通常使用从现有对话框形成的合成数据来训练响应排名者,通过使用地面真理响应作为单个适当的响应并通过随机选择或使用对抗方法来构建不适当的响应。在这项工作中,我们策划了一个数据集,其中为适当的(正)和不适当(负)手动注释了为相同对话框上下文产生的多个响应发生器的响应。我们认为,这样的培训数据可以更好地匹配实际的用例示例,从而使模型能够有效地对响应进行排名。有了这个新数据集,我们对最先进的响应选择方法进行了系统的评估,并证明,使用多个积极候选者和使用手动验证的硬性负面候选者的两种策略都可以与使用相比,可以带来重大的绩效提高对抗性训练数据,例如,召回@1分别增加了3%和13%。
translated by 谷歌翻译
尽管基于大型神经模型的聊天机器人通常可以在开放域对话中产生流利的响应,但一种显着的错误类型是矛盾或与上述对话转弯的不一致性。以前的工作将机器人响应中的矛盾检测视为类似于自然语言推断的任务,例如检测一对机器人话语之间的矛盾。但是,对话中的话语可能包含共同引用或省略号,并且使用这些话语可能并不总是足以识别矛盾。这项工作旨在通过重写所有机器人话语来恢复前因和省略号来改善矛盾检测。我们策划了一个新的数据集来重写话语,并在其上构建了重写模型。我们从经验上证明,该模型可以产生令人满意的重写,以使机器人说话更加完整。此外,使用重写的话语可以显着提高矛盾的检测性能,例如AUPR和关节准确度得分(检测矛盾以及证据)分别增加6.5%和4.5%(绝对增加)。
translated by 谷歌翻译
虽然通常可以使用丰富的开放域文本数据,并且可能包括有趣的现象(幽默,讽刺,移情等),大多数是用于语言处理任务的设计,并且通常采用非交流格式。在这项工作中,我们朝着使用生成的对话网络自动生成对话数据迈出了一步,旨在从可用的语言和知识数据的广度中受益,并培训开放式域社交对话代理。我们使用自动指标和人类评估符在主题聊天数据集上有或没有知识的对话中评估我们的方法。我们的结果表明,对于没有知识基础的对话,GCN可以从种子数据中概括,产生新颖的对话,这些对话较小,但更具吸引力,并且对于知识的对话,它可以产生更多以知识为中心,流利和引人入胜的对话。具体而言,我们表明,对于使用10 \%种子数据的开放域对话,我们的方法靠近使用100%数据的基线,而对于知识接地的对话,它仅使用1%数据,关于人类参与性,流利性和相关性的评级。
translated by 谷歌翻译
Guillain-Barre综合征是一种罕见的神经系统疾病,其中人免疫系统攻击周围神经系统。周围神经系统似乎是神经元模型的数学模型的扩散连接系统,并且该系统的周期比每个神经回路的周期都短。传导路径中的刺激将被轴突接收到失去其功能的髓鞘鞘,并在外部传递到靶器官,旨在解决降低神经传导的问题。在神经元模拟环境中,可以创建神经元模型并定义系统内发生的生物物理事件。在这种环境中,细胞和树突之间的信号传递是图形的。模拟的钾和钠电导是充分复制的,电子动作电位与实验测量的电位相当。在这项工作中,我们提出了一个模拟和数字耦合的神经元模型,该模型包括个人兴奋性和抑制性神经回路块,用于低成本和节能系统。与数字设计相比,我们的模拟设计的性能较低,但能源效率降低了32.3 \%。因此,所得的耦合模拟硬件神经元模型可以是模拟神经传导减少的模型。结果,模拟耦合的神经元(即使具有更大的设计复杂性)为未来开发的可穿戴传感器设备的竞争者,该设备可能有助于治疗吉兰 - 巴雷综合症和其他神经系统疾病。
translated by 谷歌翻译
我们介绍了一个大规模实验,该实验对编码器进行了预处理,其参数计数范围从700m到9.3b不等,随后蒸馏到较小的型号中,范围为17m-170亿参数,其应用到自然语言理解(NLU)组件(NLU)组件(虚拟助手系统。尽管我们使用70%的口语数据训练,但在对书面形式的跨语性自然语言推论(XNLI)语料库进行评估时,我们的教师模型与XLM-R和MT5相当。我们使用系统中的内域数据对教师模型进行了第二阶段的训练,以提高了3.86%的相对分类,而相对7.01%的插槽填充。我们发现,即使是从我们的2阶段教师模型中提取的170亿参数模型,与仅接受公共数据的2.3B参数老师相比,与2.3B参数老师相比,意图分类更好2.88%,并且7.69%的插槽填充错误率更好(第1阶段),强调了。内域数据对训练的重要性。当使用标记的NLU数据进行离线评估时,我们的17m参数阶段2蒸馏模型的表现分别优于XLM-R碱基(85m Params)和Distillbert(42m Params),分别优于4.23%至6.14%。最后,我们介绍了一个完整的虚拟助手实验平台的结果,在该平台中,我们发现使用经过预训练和蒸馏管道训练的模型超过了从8500万参数教师蒸馏的模型,在自动测量全系统用户不满的自动测量中,从8500万参数教师蒸馏出3.74%-4.91%。
translated by 谷歌翻译
已经证明,提供对话模型,可以使开放域的对话更加丰富和引人入胜。现有模型将知识选择视为单独处理每个句子的句子排名或分类问题,忽略了后台文档中句子之间的内部语义连接。在这项工作中,我们建议自动将背景知识文档转换为文档语义图,然后在此类图上执行知识选择。我们的文档语义图通过使用句子节点来保留句子级信息,并提供句子之间的概念连接。我们共同将多任务学习用于句子级别和概念级知识选择,并表明它改善了句子级别的选择。我们的实验表明,我们的基于语义图的知识选择改进了知识选择任务和Holle的端到端响应生成任务的句子选择基线,并改善了WOW中看不见的主题的概括。
translated by 谷歌翻译